การพัฒนาของเอเจนต์อัตโนมัติที่ใช้หน้าจอกราฟิก (GUI)
เอเจนต์อัตโนมัติที่ใช้หน้าจอกราฟิก (GUI) คืออะไร?
เอเจนต์อัตโนมัติที่ใช้หน้าจอกราฟิก (GUI) เป็นระบบที่เชื่อมโยงระหว่างโมเดลภาษาขนาดใหญ่กับอินเทอร์เฟซผู้ใช้กราฟิก (GUI) ทำให้ปัญญาประดิษฐ์สามารถโต้ตอบกับซอฟต์แวร์ได้เหมือนผู้ใช้งานทั่วไป
ในอดีต การโต้ตอบกับปัญญาประดิษฐ์ถูกจำกัดอยู่ที่แชทบอท, ซึ่งเน้นในการสร้างข้อมูลหรือโค้ดในรูปแบบข้อความ แต่ไม่มีความสามารถในการโต้ตอบกับสภาพแวดล้อม ปัจจุบันเราอยู่ในกระบวนการเปลี่ยนผ่านสู่แอคชันบอท—เอเจนต์ที่ตีความข้อมูลหน้าจอภาพเพื่อทำการคลิก สวайป และป้อนข้อความผ่านเครื่องมือ เช่น ADB (Android Debug Bridge) หรือ PyAutoGUI
พวกเขาทำงานอย่างไร? สถาปัตยกรรมสามส่วน
แอคชันบอทสมัยใหม่ (เช่น Mobile-Agent-v2) พึ่งพาวงจรทางปัญญาสามส่วน:
- การวางแผน: ประเมินประวัติงานและติดตามความคืบหน้าปัจจุบันเพื่อให้บรรลุเป้าหมายหลัก
- การตัดสินใจ: กำหนดขั้นตอนถัดไปอย่างเฉพาะเจาะจง (เช่น "คลิกไอคอนรถเข็น") ตามสถานะอินเทอร์เฟซปัจจุบัน
- การสะท้อนกลับ: ตรวจสอบหน้าจอ หลังจากหลังจากดำเนินการ เพื่อตรวจจับข้อผิดพลาด และปรับแก้ตนเองหากการดำเนินการล้มเหลว
ทำไมต้องเรียนรู้แบบเสริมแรง? (แบบคงที่กับแบบพลวัต)
แม้ว่าการปรับปรุงด้วยการสอนแบบมีผู้ควบคุม (SFT) จะดีสำหรับงานที่คาดการณ์ได้และคงที่ แต่กลับมักล้มเหลวในสภาพแวดล้อมจริง "โลกแห่งความจริง" ซึ่งมีการอัปเดตซอฟต์แวร์ที่ไม่คาดคิด โครงสร้างอินเทอร์เฟซที่เปลี่ยนแปลง และโฆษณาที่แสดงขึ้นแบบกะทันหันการเรียนรู้แบบเสริมแรง (RL) เป็นสิ่งจำเป็นสำหรับเอเจนต์ที่จะปรับตัวได้อย่างยืดหยุ่น ทำให้สามารถเรียนรู้นโยบายทั่วไป ($\pi$) ที่เพิ่มผลตอบแทนระยะยาว ($R$) ได้ แทนที่จะแค่จดจำตำแหน่งพิกเซล
1. Planning: To break down "buy a coffee" into steps (search, select, checkout).
2. Decision: To map the current step to a specific UI interaction (e.g., click the search bar).
3. Reflection: To verify if the click worked or if an error occurred.
SFT often causes the model to memorize specific pixel locations or static DOM structures. If a button moves during an app update, the agent will likely click the wrong area. Reinforcement Learning (RL) is needed to help the agent generalize and search for the semantic meaning of the button regardless of its exact placement.